数据脱敏的常用方法有哪些
数据脱敏,是指在不影响数据分析结果的准确性前提下,对原始数据中的敏感字段进行处理,从而降低数据敏感度和减少个人隐私风险的技术措施。常见的数据脱敏方法主要包括:
数据替换
用设置的固定虚构值替换真值。例如将手机号码统一替换为 13800013800
反推断
查找可能由某些字段推断出另一敏感字段的映射,并对这些字段进行脱敏,如从出生日期可推断出身份证号、性别、地区的场景。
偏移和取整
通过随机移位改变数字数据,例如日期 2018-01-02 8 : 12 : 25 变为 2018-01-02 8 : 00 : 00,偏移取整在保持了数据的安全性的同时保证了范围的大致真实性,此项功能在大数据利用环境中具有重大价值。
掩码屏蔽
掩码屏蔽是针对账户类数据的部分信息进行脱敏时的有力工具,比如银行卡号或是身份证号的脱敏。将身份证号的出生日期进行掩码屏蔽脱敏。使用left()函数截取身份证号的左边 6 位 + 字符串 ****+right()函数截取身份证号右边 4 位替换源身份证字符串。
灵活编码
在需要特殊脱敏规则时,可执行灵活编码以满足各种可能的脱敏规则。比如用固定字母和固定位数的数字替代合同编号真值。将合同编号进行自定义编码脱敏。自定义编码规则:4 位固定码 + 当前年份 + 源目标字符串 4 位号码 +9 位数值组成。
无效化
通过对数据值得截断、加密、隐藏等方式使敏感数据脱敏,使其不再具有利用价值,例如将地址以 ** 代替真值。数据无效化与数据替换所达成的效果基本类似。
随机化
用随机数据代替真值,保持替换值的随机性以模拟样本的真实性。例如用随机生成的姓和名代替真值。
加密
指对待脱敏数据进行加密处理,使 外部用户只看到无意义的加密后数据,同时在特定场 “云计算与大数据”专题 19 2015年第13期 景下,可以提供解密能力,使具有密钥的相关方可以 获得原数据。加密的方法存在一定的安全风险(密钥 泄露或加密强度不够);加密本身需要一定的计算 能力,对于大数据集来源会产生很大资源开销;一般 加密后数据与原始数据格式差异较大,“真实性”较 差。一般情况下,加密的数据脱敏方式应用不多。
遮挡
指对敏感数据的部分内容用掩饰符号(如“X、*”)进行统一替换,从而使 得敏感数据保持部分内容公开。这种方法可以在很大 程度上脱敏的同时,保持原有数据感观,也是一种广 泛使用的方法。